Evaluation supervisée de métrique : application à la préparation de données séquentielles
نویسندگان
چکیده
Résumé. De nos jours, le statisticien n’a plus nécessairement le contrôle sur la récolte des données. Le besoin d’une analyse statistique vient dans un second temps, une fois les données récoltées. Par conséquent, un travail est à fournir lors de la phase de préparation des données afin de passer d’une représentation informatique à une représentation statistique adaptée au problème considéré. Dans cet article, nous étudions un procédé de sélection d’une bonne représentation en nous basant sur des travaux antérieurs. Nous proposons un protocole d’évaluation de la pertinence d’une représentation par l’intermédiaire d’une métrique, dans le cas de la classification supervisée. Ce protocole exploite une méthode de classification non paramétrique régularisée, garantissant l’automaticité et la fiabilité de l’évaluation. Nous illustrons le fonctionnement et les apports de ce protocole par un problème réel de préparation de données de consommation téléphonique. Nous montrons également la fiabilité et l’interprétabilité des décisions qui en résultent.
منابع مشابه
Evaluation d'une mesure de similitude en classification supervisée : application à la préparation de données séquentielles. (Supervised learning from sequential data)
HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau...
متن کاملClassification probabiliste non supervisée et visualisation des données séquentielles
Résumé. Nous proposons dans ce papier un nouvel algorithme de classification non supervisée à base de modèle de mélange topologique pour des données non i.i.d (non independently and identically distributed). Ce nouveau paradigme probabiliste, plonge les cartes topologiques probabilistes dans une formulation sous forme de chaînes de Markov cachées. Dans cette formulation, la génération d’une obs...
متن کاملUne nouvelle approche pour la sélection de variables basée sur une métrique d'estimation de la qualité
Résumé. La maximisation d’étiquetage (F-max) est une métrique non biaisée d’estimation de la qualité d’une classification non supervisée (clustering) qui favorise les clusters ayant une valeur maximale de F-mesure d’étiquetage. Dans cet article, nous montrons qu’une adaptation de cette métrique dans le cadre de la classification supervisée permet de réaliser une sélection de variables et de cal...
متن کاملKhiops : outil de préparation et modélisation des données pour la fouille des grandes bases de données
Résumé. Khiops est un outil de préparation des données et de modélisation pour l’apprentissage supervisé et non supervisé. L’outil permet d’évaluer de façon non paramétrique la corrélation entre tous types de variables dans le cas non supervisé et l’importance prédictive des variables et paires de variables dans le cas de la classification supervisée. Ces évaluations sont effectuées au moyen de...
متن کامل